扬声器验证(SV)为访问控制提供数十亿个支持语音的设备,并确保语音驱动技术的安全性。作为一种生物识别技术,SV有必要公正,无论其人口,社会和经济属性如何,在演讲者之间保持一致和可靠的表现。当前的SV评估实践不足以评估偏见:它们过度简化和汇总用户,不代表现实生活中的情况,并且不考虑错误的后果。本文提出了用于构建解决这些短暂事件的SV评估数据集的设计指南。我们提出了一个用于分级话语对的难度的模式,并提出了一种用于生成包容性SV数据集的算法。我们在Voxceleb1数据集上的一组实验中验证了我们提出的方法。我们的结果证实了话语对/扬声器的计数,以及语音对的难度对评估性能和可变性具有重大影响。我们的工作有助于发展包容性和公平的SV评估实践。
translated by 谷歌翻译